Data Processing

In Machine Learning werden Milliarden an einzelnen Daten benötigt.

Daten als Grundlage müssen verstanden sein.

Quellen

  • Sensoren
  • Umfragen
  • Simulationen
  • Social Media
  • Texte
  • Finanzen
  • Multimedia
  • ERP System Data

Datentypen

Nominal Categorical Data

Benutzt für Bezeichnungen, die ungeordnet sind

  • Haarfarbe
  • Geschlecht

Ordinal Categorical Data

Geordnete Bezeichnungen

  • Rang
  • Bewertung in Sternen

Continous Numerical Data

Werte die gezählt werden können

  • Anzahl Personen in einem Raum

Discrete Numerical Data

Interval Daten, werden oft gemessen.

  • Exakte Menge ([0, 20])

Datenklassen

  • Eindimensionale Daten
  • Mehrdimensionale Daten
  • Netzwerkdaten
  • Hierarchische Daten
  • Zeitserien
  • Geographische Daten

Struktur

### Strukturiert

  • Datenmodelle

  • csv

  • ods

  • xlsx

  • HDF (Hierachical Data Format)

Nicht strukturiert

  • Hat kein fixes Format
  • Hat keine Struktur

Metadata

Beschreibende Daten zu Bildern

Data Pre Processing

Shit in - Shit out

Probleme

  • Schreibfehler in Quellen
  • Falsches Format von Daten
  • Falsche Berechnung von Eingabedaten
  • Verschiedene Klassifizierung von gleichen Inhalten
  • Doppelte Inhalte in falschen Werten

Methodiken

Vektorvergleich

  • Titeln: Die Levensteindistanz gibt an, wie viele Operationen notwendig sind, um von einem Text auf den anderen zu kommen.

#### Vektoren

CoSine Similiarity

### Fehlende Daten

  • Interpolation / Annahme durch andere Werte
  • Löschen / nicht zu oft, um Mengen nicht zu verfälschen